20 research outputs found

    Methods and models of automatic ontology construction for specialized domains (case of the Radiation Security)

    Get PDF
    We propose a hybrid, semi-automatic approach that uses the intersection of semantic classes of nouns and verbs built on the domain lexicon and builds kernel ontology from a list of initial concepts and then completes this kernel ontology by new entities detected in a large corpus of texts of international standards of Radiological Safety. The results confirm the important role of initial linguistic modeling and show that the external lexical resources available online can contribute effectively to the resolution of the problem of lexical disambiguation

    Business Intelligence for Small and Middle-Sized Entreprises

    Full text link
    Data warehouses are the core of decision support sys- tems, which nowadays are used by all kind of enter- prises in the entire world. Although many studies have been conducted on the need of decision support systems (DSSs) for small businesses, most of them adopt ex- isting solutions and approaches, which are appropriate for large-scaled enterprises, but are inadequate for small and middle-sized enterprises. Small enterprises require cheap, lightweight architec- tures and tools (hardware and software) providing on- line data analysis. In order to ensure these features, we review web-based business intelligence approaches. For real-time analysis, the traditional OLAP architecture is cumbersome and storage-costly; therefore, we also re- view in-memory processing. Consequently, this paper discusses the existing approa- ches and tools working in main memory and/or with web interfaces (including freeware tools), relevant for small and middle-sized enterprises in decision making

    Apprentissage automatique et catégorisation de textes multilingues

    No full text
    Notre travail s'intéresse à l'application de méthodes issues de l'apprentissage automatique à la catégorisation de textes multilingues. Il comporte deux parties. Une première partie donne une présentation générale de la catégorisation de textes : Définitions, objectifs généraux et domaines d'application ; Adaptation des algorithmes d'apprentissage aux spécificités des textes ; La méthode de sélection de termes multivariée ; Le codage en n-grammes et les mots ; Les méthodes d'apprentissage et la mesure de leurs performances ; les texts réalisés pour comparer les algorithmes d'apprentissage sur les textes. La deuxième partie s'intéresse a l'apprentissage de textes multilingues en comparant deux chaînes possibles : Chaîne 1 : reconnaissance de la langue, puis utilisation de règles de classement construites pour chaque langue ; il faut alors avoir construit un modèle adapté à chacune des langues. Chaîne 2 : utilisation de la traduction automatique dans le processus de catégorisation ; cette solution permet d'utiliser un seul ensemble de règles de classement. Ici, il y a deux options : 1. Construire un modèle unique sur l'ensemble d'apprentissage d'une langue donnée ; ensuite, pour classer un nouveau texte, (I) reconnaissance de sa langue, (II) traduction de ce texte vers la langue d'apprentissage, (III) application du modèle de prédiction sur le texte traduit ; ici la phase de traduction n'intervient que dans la phase de classement. 2. Faire intervenir la traduction automatique dès la phase d'apprentissage : à partir d'un ensemble étiqueté de textes en différentes langues, traduction automatique dès la phase d'apprentissage : à partir d'un enemble étiqueté de textes en différentes langues, traduction automatique de tous ces textes vers une langue cible et apprentissage sur cet ensemble de textes traduits ; ensuite, pour classer un nouveau texte, la procédure est la même. Nous testons nos algorithmes sur des corpus multilingues.LYON2/BRON-BU (690292101) / SudocSudocFranceF

    Le gaullisme, fraction de la droite (les élections législatives de 1958 à 1978 dans la région Rhône-Alpes)

    No full text
    GAULLISM AS A FRACTION OF THE RIGHT: THE CASE OF THE RHÔNE-ALPES REGION, by ROBERT PONCEYRI and JEAN-HUGUES CHAUCHAT As far as the influence of Gaullism is concerned, the Rhône-Alpes region has a number of particular features. Systematic analysis of the six parliamentary elections under the Fifth Republic shows that it is a region where « centrist » sentiments are solidly established, and which is correspondingly hostile to Gaullism. In any event, the Gaullist electorate is not significantly different from the moderate electorate, and can therefore be considered legitimately to be part of it. [Revue française de science politique XXVIII (6), décembre 1978, pp. 1039-1054.]LE GAULLISME FRACTION DE LA DROITE : LE CAS DE LA RÉGION RHÔNE-ALPES ROBERT PONCEYRI et JEAN-HUGUES CHAUCHAT La région Rhône-Alpes, du point de l'influence du gaullisme, présente des caractéristiques particulières. L'analyse systématique des résultats des six élections législatives de la Cinquième République montre qu'il s'agit d'une région d'implantation privilégiée des courants « centristes » et, corrélativement, d'une région relativement réfractaire au gaullisme. En tout état de cause, l'électoral gaulliste ne se distingue pas significativement de l'électoral modéré et peut donc, à bon droit, en être considéré comme un élément. [Revue française de science politique XXVIII (6), décembre 1978, pp. 1039-1054.]Ponceyri Robert, Chauchat Jean-Hugues. Le gaullisme, fraction de la droite (les élections législatives de 1958 à 1978 dans la région Rhône-Alpes). In: Revue française de science politique, 28ᵉ année, n°6, 1978. pp. 1039-1054

    Managing managers in Europe

    No full text
    To what extent is Human Resources Management in companies ready for 1992? Although a clear, definitive answer cannot be given at this point in time, certain trends and patterns are becoming increasingly clear and are indicating likely developments in the run-up to 1993. The authors base their discussion on more than 40 interviews with Human Resources Directors and Managing Directors of large European companies. Using a statistical method of data classification, they suggest a framework of companies in which the main differentiating factor is that of corporate strategy and its orientation.

    Modélisation et fouille de discussions de Web

    No full text
    The development of Web 2.0 has resulted in the generation of a vast amount of online discussions. Mining and extracting quality knowledge from online discussions is significant for the industrial and marketing sector, as well as for e-commerce applications. Discussions of this kind encapsulate people's interests and beliefs and hence, there is a great interest in acquiring and developing online discussion analysis tools. The objective of this thesis is to define a model which represents online discussions and facilitates their analysis. We propose a graph-oriented model. The vertices of the graph represent postings. Each posting encapsulates information such as the content of the message, the author who has written it, the opinion polarity of the message and the time that the message was posted. The edges among the postings point out a "reply-to" relation. In other words they show which posting replies to what as it is given by the structure of the online discussion.The proposed model is accompanied by a number of measures which facilitate the discussion mining and the extraction of knowledge from it. Defined measures consist in measures that are underlined by the structure of the discussion and the way the postings are linked to each other. There are opinion-oriented measures which deal with the opinion evolution within a discussion. Time-oriented measures exploit the presence of the temporal dimension within a model, while topic-oriented measures can be used in order to measure the presence of topics within a discussion. The user's presence inside the online discussions can be exploited either by social network techniques or through the new model which encapsulates knowledge about the author of each posting.The representation of an online discussion in the proposed way allows a user to "zoom" inside the discussion. A recommendation of messages is proposed to the user to enable a more efficient participation inside the discussion.Additionally, a prototype system has been implemented which allows the user to mine online discussions by selecting a subset of postings and browse through them efficiently.Le développement du Web 2.0 a donné lieu à la production d'une grande quantité de discussions en ligne. La fouille et l'extraction de données de qualité de ces discussions en ligne sont importantes dans de nombreux domaines (industrie, marketing) et particulièrement pour toutes les applications de commerce électronique. Les discussions de ce type contiennent des opinions et des croyances de personnes et cela explique l'intérêt de développer des outils d'analyse efficaces pour ces discussions.L'objectif de cette thèse est de définir un modèle qui représente les discussions en ligne et facilite leur analyse. Nous proposons un modèle basé sur des graphes. Les sommets du graphe représentent les objets de type message. Chaque objet de type message contient des informations comme son contenu, son auteur, l'orientation de l'opinion qui y été exprimée et la date où il a été posté. Les liens parmi les objets message montrent une relation de type "répondre à". En d'autres termes, ils montrent quels objets répondent à quoi, conséquence directe de la structure de la discussion en ligne.Avec ce nouveau modèle, nous proposons un certain nombre de mesures qui guident la fouille au sein de la discussion et permettent d'extraire des informations pertinentes. Les mesures sont définies par la structure de la discussion et la façon dont les objets messages sont liés entre eux. Il existe des mesures centrées sur l'analyse de l'opinion qui traitent de l'évolution de l'opinion au sein de la discussion. Nous définissons également des mesures centrées sur le temps, qui exploitent la dimension temporelle du modèle, alors que les mesures centrées sur le sujet peuvent être utilisées pour mesurer la présence de sujets dans une discussion. La représentation d'une discussion en ligne de la manière proposée permet à un utilisateur de "zoomer" dans une discussion. Une liste de messages clés est recommandée à l'utilisateur pour permettre une participation plus efficace au sein de la discussion. De plus, un système prototype a été implémenté pour permettre à l'utilisateur de fouiller les discussions en ligne en sélectionnant un sous ensemble d'objets de type message et naviguer à travers ceux-ci de manière efficace.LYON2/BRON-BU (690292101) / SudocSudocFranceF

    Regrouper les données textuelles et nommer les groupes à l'aide des classes recouvrantes

    No full text
    egc10rvcInternational audienceOrganiser les données textuelles et en tirer du sens est un défi majeur aujourd'hui. Ainsi, lorsque l'on souhaite analyser un débat en ligne ou un forum de discussion, on voudrait pouvoir rapidement voir quels sont les principaux thèmes abordés et la manière dont la discussion se structure autour d'eux. Pour cela, et parce que un même texte peut être associé à plusieurs thèmes, nous proposons une méthode originale pour regrouper les données textuelles en autorisant les chevauchements et pour nommer chaque groupe de manière lisible. La contribution principale de cet article est une méthode globale qui permet de réaliser toute la chaîne, partant des données textuelles brutes jusqu'à la caractérisation des groupes à un niveau sémantique qui dépasse le simple ensemble de mots

    Can automatically extracted rhythmic units discriminate among languages

    No full text
    This paper deals with rhythmic modeling and its application to language identification. Beside phonetics and phonotactics, rhythm is actually one of the most promising features to be considered for language identification, but significant problems are unresolved for its modeling. In this paper, an algorithm dedicated to rhythmic segmentation is described. Experiments are performed on read speech for 5 European languages. Several algorithms are compared. They show that salient features may be automatically extracted and efficiently modeled from the raw signal: a linear discriminant analysis of the extracted features results in a 80 % percent of correct language identification for the 5 languages, using 20 s duration utterances. Additional experiments reveal that the automatic rhythmic units convey also speaker specific features. 1

    Aggregation of data quality metrics using the Choquet integral

    No full text
    International audienceIn the context of multi-source databases, data fusion is a tricky task, and resolving inconsistency problems when merging duplicate information is one of the most intricate issues as it is generally resolved through subjective approaches. Using data quality dimensions may help sort out such a question impartially. Quality metrics are the objective criteria that justify the preference of a value v1 over a value v2; where v1 and v2 are both referring to the same real world entity but issue from different sources. However, this technique is fairly complicated when the v1 quality criteria are not all better than the v2 ones; when we have to choose, for instance, between a highly fresh but inconsistent data, and a consistent old one. Hence, we need a global qualifying score to facilitate the comparison. In this perspective, aggregation of data quality metrics can be the solution for computing a global and objective data quality score. In this paper, we introduce a solution that uses the Choquet integral as a means of aggregating data quality metrics

    Visualization of temporal text collections based on Correspondence Analysis

    No full text
    International audienceIn this paper, we present CatViz--Temporally-Sliced Correspondence Analysis Visualization. This novel method visualizes relationships through time and is suitable for large-scale temporal multivariate data. We couple CatViz with clustering methods, whereupon we introduce the concept of final centroid transfer, which enables the correspondence of clusters in time. Although CatViz can be used on any type of temporal data, we show how it can be applied to the task of exploratory visual analysis of text collections. We present a successful concept of employing feature-type filtering to present different aspects of textual data. We performed case studies on large collections of French and English news articles. In addition, we conducted a user study that confirms the usefulness of our method. We present typical tasks of exploratory text analysis and discuss application procedures that an analyst might perform. We believe that CatViz is general and highly applicable to large data sets because of its intuitiveness, effectiveness, and robustness. We expect that it will enable a better understanding of texts in huge historical archives
    corecore